# Introdução

<CourseFloatingBanner
    chapter={5}
    classNames="absolute z-10 right-0 top-0"
/>

No [Capítulo 3](/course/chapter3) você teve seu primeiro gostinho da biblioteca 🤗 Datasets e viu que havia três passos principais quando se tratava de treinar para melhorar (fine-tuning) um modelo:

1. Carregar um conjunto de dados (dataset) do Hugging Face Hub.
2. Pré-processar os dados com `Dataset.map()`.
3. Carregar e calcular as métricas.

Mas isto está apenas arranhando a superfície do que 🤗 Dataset.map pode fazer! Neste capítulo, vamos dar um mergulho profundo na biblioteca. Ao longo do caminho, encontraremos respostas para as seguintes perguntas:

* O que você faz quando seu conjunto de dados não está no Hub?
* Como você pode separar um conjunto de dados? (E se você _necessário_ usar Pandas?)
* O que você faz quando seu conjunto de dados é enorme e derreterá a RAM de seu laptop?
* O que diabos são "mapeamento de memória" e Apache Arrow?
* Como você pode criar seu próprio conjunto de dados e enviar para o Hub?

As técnicas que você aprender aqui vão prepará-lo para as tarefas avançadas de tokenization e fine-tuning no [Capítulo 6](/course/chapter6) e [Capítulo 7](/course/chapter7) -- então pegue um café e vamos começar!

